当我们扩大数据集,模型尺寸和培训时间时,深入学习方法的能力中存在越来越多的经验证据。尽管有一些关于这些资源如何调节统计能力的说法,但对它们对模型培训的计算问题的影响知之甚少。这项工作通过学习$ k $ -sparse $ n $ bits的镜头进行了探索,这是一个构成理论计算障碍的规范性问题。在这种情况下,我们发现神经网络在扩大数据集大小和运行时间时会表现出令人惊讶的相变。特别是,我们从经验上证明,通过标准培训,各种体系结构以$ n^{o(k)} $示例学习稀疏的平等,而损失(和错误)曲线在$ n^{o(k)}后突然下降。 $迭代。这些积极的结果几乎匹配已知的SQ下限,即使没有明确的稀疏性先验。我们通过理论分析阐明了这些现象的机制:我们发现性能的相变不到SGD“在黑暗中绊倒”,直到它找到了隐藏的特征集(自然算法也以$ n^中的方式运行{o(k)} $ time);取而代之的是,我们表明SGD逐渐扩大了人口梯度的傅立叶差距。
translated by 谷歌翻译
Deep learning requires data. A useful approach to obtain data is to be creative and mine data from various sources, that were created for different purposes. Unfortunately, this approach often leads to noisy labels. In this paper, we propose a meta algorithm for tackling the noisy labels problem. The key idea is to decouple "when to update" from "how to update". We demonstrate the effectiveness of our algorithm by mining data for gender classification by combining the Labeled Faces in the Wild (LFW) face recognition dataset with a textual genderizing service, which leads to a noisy dataset. While our approach is very simple to implement, it leads to state-of-the-art results. We analyze some convergence properties of the proposed algorithm.
translated by 谷歌翻译
Neural Representations have recently been shown to effectively reconstruct a wide range of signals from 3D meshes and shapes to images and videos. We show that, when adapted correctly, neural representations can be used to directly represent the weights of a pre-trained convolutional neural network, resulting in a Neural Representation for Neural Networks (NeRN). Inspired by coordinate inputs of previous neural representation methods, we assign a coordinate to each convolutional kernel in our network based on its position in the architecture, and optimize a predictor network to map coordinates to their corresponding weights. Similarly to the spatial smoothness of visual scenes, we show that incorporating a smoothness constraint over the original network's weights aids NeRN towards a better reconstruction. In addition, since slight perturbations in pre-trained model weights can result in a considerable accuracy loss, we employ techniques from the field of knowledge distillation to stabilize the learning process. We demonstrate the effectiveness of NeRN in reconstructing widely used architectures on CIFAR-10, CIFAR-100, and ImageNet. Finally, we present two applications using NeRN, demonstrating the capabilities of the learned representations.
translated by 谷歌翻译
Graph Neural Networks (GNNs) are prominent in handling sparse and unstructured data efficiently and effectively. Specifically, GNNs were shown to be highly effective for node classification tasks, where labelled information is available for only a fraction of the nodes. Typically, the optimization process, through the objective function, considers only labelled nodes while ignoring the rest. In this paper, we propose novel objective terms for the training of GNNs for node classification, aiming to exploit all the available data and improve accuracy. Our first term seeks to maximize the mutual information between node and label features, considering both labelled and unlabelled nodes in the optimization process. Our second term promotes anisotropic smoothness in the prediction maps. Lastly, we propose a cross-validating gradients approach to enhance the learning from labelled data. Our proposed objectives are general and can be applied to various GNNs and require no architectural modifications. Extensive experiments demonstrate our approach using popular GNNs like GCN, GAT and GCNII, reading a consistent and significant accuracy improvement on 10 real-world node classification datasets.
translated by 谷歌翻译
尽管变压器语言模型(LMS)是信息提取的最新技术,但长文本引入了需要次优的预处理步骤或替代模型体系结构的计算挑战。稀疏注意的LMS可以代表更长的序列,克服性能障碍。但是,目前尚不清楚如何解释这些模型的预测,因为并非所有令牌都在自我发项层中相互参加,而在运行时,长序列对可解释性算法提出了计算挑战,而当运行时取决于文档长度。这些挑战在文档可能很长的医学环境中是严重的,机器学习(ML)模型必须是审核和值得信赖的。我们介绍了一种新颖的蒙版抽样程序(MSP),以识别有助于预测的文本块,将MSP应用于预测医学文本诊断的背景下,并通过两位临床医生的盲目审查来验证我们的方法。我们的方法比以前的最先进的临床信息块高约1.7倍,速度更快100倍,并且可用于生成重要的短语对。 MSP特别适合长LMS,但可以应用于任何文本分类器。我们提供了MSP的一般实施。
translated by 谷歌翻译
简介:在房颤(AF)导管消融过程(CAP)期间记录了12条铅心电图(ECG)。如果没有长时间的随访评估AF复发(AFR),确定CAP是否成功并不容易。因此,AFR风险预测算法可以使CAP患者更好地管理。在这项研究中,我们从CAP前后记录的12铅ECG中提取功能,并训练AFR风险预测机学习模型。方法:从112例患者中提取前和后段段。该分析包括信号质量标准,心率变异性和由12铅ECG设计的形态生物标志物(总体804个功能)。在112名患者中,有43例AFR临床终点可用。这些用于使用前或后CAP特征来评估AFR风险预测的可行性。在嵌套的交叉验证框架内训练了一个随机的森林分类器。结果:发现36个特征在区分手术前和手术后具有统计学意义(n = 112)。对于分类,报告了接收器操作特性(AUROC)曲线下的区域,AUROC_PRE = 0.64,AUROC_POST = 0.74(n = 43)。讨论和结论:此初步分析表明AFR风险预测的可行性。这样的模型可用于改善盖帽管理。
translated by 谷歌翻译
自2009年比特币成立以来,随着日常交易超过100亿美元,加密货币的市场已经超出了初始预期。随着行业的自动化,自动欺诈探测器的需求变得非常明显。实时检测异常会阻止潜在的事故和经济损失。多元时间序列数据中的异常检测提出了一个特定的挑战,因为它需要同时考虑时间依赖性和变量之间的关系。实时识别异常并不是一项容易的任务,特别是因为他们观察到的确切的异常行为。有些要点可能会呈现全球或局部异常行为,而其他点由于其频率或季节性行为或趋势的变化,可能是异常的。在本文中,我们建议从特定帐户进行以太坊的实时交易,并调查了各种各样的传统和新算法。我们根据他们搜索的策略和异常行为对它们进行分类,并表明当它们将它们捆绑在一起时,它们可以证明是一个很好的实时探测器,警报时间不超过几秒钟,并且非常有高信心。
translated by 谷歌翻译
图形卷积网络(GCN)类似于卷积神经网络(CNN),通常基于两个主要操作 - 空间和点的卷积。在GCN的背景下,与CNN不同,通常选择基于图形laplacian的预定的​​空间操作员,通常只允许学习点的操作。但是,学习有意义的空间操作员对于开发更具表现力的GCN以提高性能至关重要。在本文中,我们提出了PathGCN,这是一种从图上的随机路径学习空间操作员的新方法。我们分析方法的收敛及其与现有GCN的差异。此外,我们讨论了将我们所学的空间操作员与点卷积相结合的几种选择。我们在众多数据集上进行的广泛实验表明,通过适当地学习空间和角度的卷积,可以固有地避免诸如过度光滑的现象,并实现新的最先进的性能。
translated by 谷歌翻译
目的:机器学习技术已广泛用于12铅心电图(ECG)分析。对于生理时间序列,基于领域知识的深度学习(DL)优势(FE)方法仍然是一个悬而未决的问题。此外,尚不清楚将DL与FE结合起来是否可以提高性能。方法:我们考虑了要解决这些研究差距的三个任务:心律不齐的诊断(多类 - 甲状腺素分类),房颤风险预测(二进制分类)和年龄估计(回归)。我们使用2.3m 12铅ECG录音的总体数据集来培训每个任务的以下模型:i)随机森林将FE作为输入作为经典的机器学习方法培训; ii)端到端DL模型; iii)Fe+DL的合并模型。结果:FE得出的结果与DL产生了可比的结果,同时需要较少的两个分类任务数据,并且对于回归任务而言,DL的表现优于DL。对于所有任务,将FE与DL合并并不能单独提高DL的性能。结论:我们发现,对于传统的12铅ECG诊断任务,DL并未对FE产生有意义的改进,而它显着改善了非传统回归任务。我们还发现,将FE与DL相结合并不能单独改善DL,这表明FE与DL学到的功能是多余的。意义:我们的发现提供了有关哪种机器学习策略和数据制度的重要建议,可以选择基于12 Lead ECG开发新机器学习模型的任务。
translated by 谷歌翻译
最近,已经研究了通过CNN进行超像素分割的无监督学习的概念。从本质上讲,这种方法通过在单个图像上使用的卷积神经网络(CNN)生成超像素,并且对此类CNN进行了培训,而无需任何标签或更多信息。因此,这种方法依赖于先验的掺入,通常是通过设计一个目标函数,该目标函数可以指导解决方案实现有意义的超像素分割。在本文中,我们提出了三个关键要素,以提高此类网络的功效:(i)与输入图像相比,\ emph {soft} super像素化图像的相似性,(ii)对象边缘和边界和边界和((iii)基于非常卷积的修改架构,该体系结构允许更广泛的视野,可作为我们网络中的多尺度组件的功能。通过尝试BSDS500数据集,我们在定性和定量上找到了提案的重要性的证据。
translated by 谷歌翻译